Les agents intelligents sont-ils les nouveaux navigateurs web ?

Après de nombreuses années à annoncer et redouter le raz-de-marée de l’IA qui va déferler sur les employés de bureau, il semblerait que les progrès réalisés sur les modèles d’action permettent de relancer l’intérêt des outils d’automation. Les agents intelligents sont bien partis pour prendre la place des chatbots comme nouveaux porte-étendards de la « révolution de l’IA », celle qui va sonner le glas des traitements manuels et des employés non qualifiés. Plutôt que de chercher à combattre l’inévitable, il convient de se préparer à l’arrivée dans les entreprises et organisations d’une nouvelle force de travail qui va immanquablement changer la donne et faire exploser les anciens modèles de production et d’encadrement.

#IA #GenAI #AgentsIntelligents


En synthèse :

  • Malgré l’engouement du grand public, les chatbots reposant sur des modèles de langage restent des services en ligne très couteux à exploiter, avec une viabilité beaucoup faible que les éditeurs veulent bien l’admettre ;
  • Un consensus est en train d’émerger autour des agents intelligents, la nouvelle solution miracle que les startups et grandes sociétés technologiques essayent déjà d’imposer au marché ;
  • Les agents intelligents se distinguent des chatbots par leur capacité d’action en dehors de la fenêtre du navigateur (l’évolution naturelle des agents autonomes) ;
  • La clé de l’adoption résidera dans la capacité des éditeurs à proposer des interfaces simples pour pouvoir créer et gérer des agents capables d’agir pour le compte des utilisateurs en exploitant des ressources tierces ;
  • L’avènement des agents intelligents annonce des gains de productivité, mais également de gros bouleversement pour les innombrables employés de bureau qui ne peuvent justifier d’une expertise que les IA ne savent pas modéliser.

Il y a 10 ans, nous pensions que les assistants vocaux allaient remplacer les navigateurs web (Les assistants personnels sont les nouveaux navigateurs web). Au final, comme ils ne proposent que des fonctionnalités limitées, leur adoption a rapidement connu un plateau avant de décliner (The Alexa Skills revolution that wasn’t).

Après deux ans de folles spéculations suite à la sortie de ChatGPT, nous arrivons aux limites de ce que peuvent nous proposer les chatbots généralistes, d’une part du fait des limitations inhérentes aux modèles eux-mêmes (Former OpenAI researcher explains what « Ask the AI » really means) ; et d’autre part, car nous n’avons plus de nouvelles données d’entrainement à disposition pour faire progresser les modèles (The new AI scaling law shell game). Et non, ce ne sont pas les fonctionnalités de recherche ou les partenariats avec les éditeurs de presse qui vont y changer quoi que ce soit : How ChatGPT Search (Mis)represents Publisher Content.

Il nous faut également aborder le problème de la viabilité de ces chatbots, car je vous rappelle que les grands modèles de langage consomment bien plus d’énergie que les moteurs de recherche. Nous nous en servons de façon parfaitement insouciante pour résumer des articles ou faire des devoirs, mais vous vous doutez bien que tous ces services n’ont qu’une durée de vie limitée, car ils ne sont absolument pas rentables, du moins pas avec un abonnement à 20$ / mois. Ce détail a d’ailleurs été publiquement abordé il y a quelques mois par l’éditeur de ChatGPT, mais il est tombé dans les oubliettes (OpenAI Considers Higher Priced Subscriptions to its Chatbot AI).

Du moins dans les oubliettes des grands médias qui continuent de propager le mythe de l’IA généraliste. Pour les professionnels, nous constatons très clairement que le vent a tourné, puisque le marché est maintenant déjà en quête de la prochaine innovation majeure autour de l’IA : Web agentisé : quand l’industrie de l’IA cherche sa nouvelle ‘Next Big Thing’.

Même s’il est très compliqué de prédire l’avenir dans un marché aussi instable et complexe, un consensus est en train d’émerger autour des agents intelligents : Gartner Predicts One-Third of Interactions with GenAI Services Will Use Action Models & Autonomous Agents for Task Completion by 2028.

La ruée vers les agents intelligents

Il y a encore quelques mois, les chatbots étaient les remplaçants naturels et logiques des plateformes et moteurs de recherche, et personne n’avait le droit de remettre en cause cette évidence. Heureusement, les convictions des « experts en IA » sont aussi fortes que malléables, ce qui leur permet maintenant de miser sur un autre cheval.

Les “Agentic AI” sont ainsi la première grande tendance technologique identifiée par le cabinet Gartner pour l’année prochaine : Top 10 Strategic Technology Trends for 2025 (sur ce coup-là, ils sont cohérents avec la prédiction citée plus haut). Nous voyons donc logiquement fleurir une série d’analyses et de cartographies qui annoncent l’avènement des agents intelligents (ex : The agent economy).

À une époque pas si lointaine, les experts du numérique ironisaient sur le fait que la blockchain puis l’IA nous étaient présentées comme LA solution à tous nos problèmes (« AI is whatever doesn’t work yet« ). Attendez-vous à ce que les agents intelligents deviennent la nouvelle solution miracle à tous vos nouveaux problèmes : Agents are the future AI companies promise, and desperately need.

Les agents intelligents sont-ils la prochaine innovation majeure ? Non pas réellement, car le principe existe depuis des décennies, et car cela fait plusieurs années que l’on essaye de coupler de façon efficace les agents avec les IA. Cette étude de Microsoft Research documente ainsi très bien la montée en puissance des agents intelligents propulsés par les modèles génératifs : AI that clicks for you: Microsoft’s research points to the future of GUI automation.

Mais au fait, c’est quoi un agent intelligent ?

Chatbots vs Agents vs Assistants

J’ai déjà eu l’occasion de vous expliquer la différence entre chatbot, agent et assistant (Les agents intelligents sont les nouveaux chatbots). Néanmoins l’actualité étant tellement forte autour des agents, de nombreuses ambiguïtés persistent sur ce que sont ou pas les agents intelligents, et surtout sur ce qui les différencient des autres IA.

Cet article est l’occasion pour moi d’apporter plus de précisions sur ce qui distingue ces différents services reposant sur l’IA générative :

  • Les chatbots sont des interfaces conversationnelles qui permettent d’interagir avec un modèle de langage. Pour faire simple, ce sont des services en ligne qui répondent à vos questions (ex : ChatGPT, Claude…). Ni plus, ni moins, car ces services ne disposent d’aucune autonomie (ils sont souvent bloqués par les sites et services externes), ni d’aucune persistance (dès que vous vous déconnectez, la conversation s’arrête).
  • Les chatbots personnalisés sont des versions plus élaborées, car ils tiennent compte de paramètres qui sont définis par les utilisateurs, comme des configurations que l’ont peut sauvegarder (ex : les custom GPTs de OpenAI, les Gems de Gemini ou les Copilots de Microsoft). En revanche, il faut toujours se connecter pour activer un chatbot personnalisé, et ce dernier ne fait toujours « que » répondre aux questions.
  • Les agents intelligents sont des mini-programmes qui sont créés pour réaliser des tâches en exploitant des services ou ressources externes pour lesquels des autorisations d’accès ont été données par les utilisateurs (ex : AutoGPT, AgentGPT, BabyAGI…). Les agents ont donc une capacité d’action en dehors de la fenêtre du navigateur, ils peuvent de plus agir de façon autonome (à l’aide de conditions et d’instructions préalablement définies).
  • Les assistants numériques sont des IA intégrées au système d’exploitation de votre terminal (ordinateur, smartphone… comme c’est le cas pour Siri sur iPhone ou Gemini sur Android) ou de votre environnement de travail (ex : Copilot dans Microsoft365 ou Gemini Pro dans Google Workspace). Ils peuvent non seulement interagir avec des services ou ressources externes (ex : base de données), mais également avec les applications installées sur votre terminal, et ont en plus accès au profil des utilisateurs pour pouvoir personnaliser les réponses ou actions, ainsi que pour pouvoir récupérer les autorisations d’accès.

Les équipes de Microsoft, Google et Apple travaillent d’arrache-pied pour imposer leur assistant à leurs clients captifs (respectivement les utilisateurs de Windows, Android et iOS / MacOS) et aux éditeurs « partenaires », ceux qui acceptent que leur service soit exploité par un assistant numérique. À ce stade de mon explication, je pense que vous avez déjà compris que le match des assistants numériques se joue à guichet fermé et que chacune des trois grandes sociétés technologiques s’efforce de bâtir la muraille la plus haute possible autour de son marché adressable.

Voilà pourquoi les analystes sont aussi enthousiastes au sujet des agents intelligents : car tout est encore possible, il n’y a pas de leader historique ou naturel. Quoi que pas tout à fait…

Des modèles de langage aux modèles d’action

Pour les observateurs extérieurs, les grands modèles de langage (LLMs pour « Large Language Models« ) sont les briques technologiques qui animent les IA génératives. Sauf qu’ils ne représentent qu’une partie des modèles spécialisés que l’on peut concevoir à partir d’un modèle de fondation : il y a également les modèles de parole, les modèles de vision, les modèles de raisonnement… le tout en différentes tailles (grands, moyens, petits…).

Nous n’en sommes qu’aux débuts de l’IA générative, aussi la liste des modèles spécialisés n’est pas exhaustive, mais le type de modèle qui nous intéresse pour cet article est celui des modèles qui sont capables d’agir. Les modèles d’action sont des systèmes d’IA conçus pour prendre des décisions ou effectuer des tâches spécifiques dans des environnements informatiques ou numériques (web, intranet…). Contrairement aux modèles de langage, qui génèrent ou analysent du texte en se basant sur des connaissances linguistiques, les modèles d’action se concentrent sur la planification et l’exécution d’actions concrètes, souvent en réponse à des stimuli externes ou des commandes (Actionable AI: An evolution from Large Language Models to Large Action Models).

Un modèle d’action est donc un algorithme capable d’interagir avec son environnement en effectuant des choix ou en exécutant des actions pour atteindre un objectif. Pour simplifier cette définition, nous pouvons prendre l’analogie de la cuisine : un modèle de langage est comme un livre de recettes qui peut vous expliquer en détail comment faire un plat, tandis qu’un modèle d’action est comme un robot-cuisinier qui peut analyser les ingrédients et ustensiles à sa disposition, puis préparer le plat.

Maintenant que nous avons précisé les différences entre les modèles de langage et les modèles d’action, intéressons-nous aux agents : Les agents intelligents sont des intelligences artificielles utilisées pour automatiser des tâches complexes comme trouver et rapatrier une information ou une donnée, exécuter une tâche sur un service ou logiciel tiers, gérer des processus numériques… Les agents sont donc des systèmes autonomes conçus pour percevoir, raisonner et agir. Ces trois fonctions s’inscrivant dans une boucle continue, permettant à l’agent de s’adapter à des contextes changeants.

Comme vous l’aurez compris, l’important avec les agents intelligents n’est pas leur capacité de raisonnement, mais plutôt leur autonomie et leur faculté à agir. Pour y parvenir, il y a grosso modo deux façons de faire qui correspondent à deux catégories d’agents intelligents :

Il y a pour le moment beaucoup de spéculations autour des manipulateurs, car si le potentiel est gigantesque, les dérives potentielles le sont tout autant. Tout ce que vous pouvez lire ou entendre sur les agents de type « manipulateur » ne sont que des spéculations, car nous ne savons pas si les éditeurs de systèmes d’exploitation (Microsoft, Apple et Google) vont accepter que des éditeurs tiers mettent sur le marché des agents qui vont manipuler des applications à la place des utilisateurs et compromettent l’intégrité du système. Ils n’auraient ainsi pas beaucoup d’explications à fournir pour bloquer ces agents, car il leur suffirait d’invoquer l’argument de la sécurité, ou pire celui de « garantir une bonne expérience pour les utilisateurs » (une façon policée de dire : « Touchez pas au grisbi !« ).

Pour les automates, la situation est différente, car les interactions entre les différents systèmes et applications se font à travers des interfaces de programmation (les fameuses APIs) qui garantissent à la fois la sécurité et la juste rémunération des uns et des autres. Donc de loin la configuration la plus viable, aussi bien d’un point de vue informatique, qu’économique, surtout dans un contexte professionnel.

Les observateurs avertis pourraient me dire qu’un agent que l’on programme est en fait un… programme informatique, et je serai bien d’accord avec eux, si ce n’est que nous parlons d’agents « intelligents », c’est-à-dire de programmes autonomes qui reposent sur des modèles d’action. Donc en gros des programmes informatiques de « nouvelle génération » qui s’appuient sur l’IA générative.

Dans l’une ou l’autre approche (manipulateurs et automates), le dénominateur commun est le fait que les utilisateurs n’ont plus besoin d’aller d’un site à un autre, ce sont les agents qui le font à leur place. Et puisque les utilisateurs ne visitent plus les sites web, à quoi vont servir les publicités et tous les efforts de création de trafic ? Nous sommes malheureusement revenus au point de départ d’une réflexion initiée il y a 10 ans avec les assistants vocaux…

Dans « automate », il y a « auto » comme dans « automation »

Pour bien appréhender la rupture que représentent les agents intelligents, il faut les considérer comme une alternative aux navigateurs : ce sont des logiciels qui permettent d’accéder à des contenus et services en ligne, mais de façon automatisée.

Selon cette optique, peut-on réellement considérer que les agents intelligents sont une innovation de rupture ? En partie, car les solutions d’automation existent depuis longtemps, mais semblent hors de portée du grand public qui n’a jamais vraiment fait l’effort de se les approprier. Les premières plateformes d’automation sont ainsi apparues il y a plus de 10 ans, notamment des services emblématiques comme IFTTT ou Zapier qui sont les ancêtres des agents intelligents. Sont-ils pour autant leur avenir ? Encore une fois, en partie, car s’ils bénéficient d’une forte légitimité sur ce créneau, ils sont pour le moment destinés à un public averti qui ne représente qu’une fraction des utilisateurs lambda.

Les seuls éditeurs capables de vulgariser le principe d’agents intelligents et de le mettre en oeuvre à grande échelle semblent être encore et toujours les géants numériques qui auront beaucoup plus de facilité à gagner la confiance des utilisateurs (ex : Gemini, Copilot, Siri), et à imposer leur fonctionnement aux éditeurs d’applications et services numériques.

C’est d’ailleurs ce qu’est discrètement en train de faire Google avec les extensions de Gemini qui permettent aux utilisateurs de smartphone Android de demander à l’assistant de piloter certaines applications à leur place : More Google Assistant actions are becoming Gemini Extensions on your Android phone et Here’s the full list of Gemini extensions and what they can do.

Vous noterez que ces extensions d’applications viennent s’ajouter aux extensions de services en ligne proposés par Google que l’on peut invoquer avec la version web de Gemini.

Un autre levier d’adoption serait d’exploiter les agents intelligents dans un contexte professionnel où les agents sont intégrés à l’environnement de travail, comme par exemple Gemini Pro dans Workspace pour trouver des informations dans vos fichiers, organiser une réunion avec vos contacts, prioriser vos emails… (cf. Gemini app for Android, iOS rolling out to Google Workspace users).

Là nous ne parlons que de l’offre proposée par Google, mais vous pouvez aisément imaginer ce nouveau marché qui s’ouvre avec tous ces services et applications à connecter à des agents : The Future of AI Agents.

D’innombrables opportunités donc, pour complètement revoir notre façon de travailler… mais à terme.

Qui veut programmer mon agent ?

Je pense ne pas avoir à argumenter plus que nécessaire sur l’utilité d’automatiser les tâches répétitives. La question qui se pose n’est pas de savoir si les agents intelligents ont un avenir, mais d’arriver à anticiper une date de réalisation pour cet avenir. Formulé autrement : les utilisateurs lambda sont-ils prêts pour les agents intelligents ? C’est là où j’ai un gros doute, car la question de savoir qui va être capable de concevoir des agents intelligents reste encore à traiter.

Comme précisé plus haut, les plateformes d’automation existent depuis plus de 10 ans, et malgré les efforts d’évangélisation des éditeurs, ces solutions ne sont exploitées que par des populations très à l’aise avec l’informatique (en gros les informaticiens). Si les conditions économiques et sociales étaient favorables, je ne me poserais pas trop la question, car la montée en puissance des agents intelligents créerait un appel d’air pour une nouvelle catégorie de prestataires (les intégrateurs d’agents), mais les temps sont durs et les budgets limités.

Voilà pourquoi nous assistons à la prolifération de startups qui ambitionnent de simplifier la création et la gestion des agents intelligents à travers des interfaces faciles à manipuler avec la souris, à l’image de ce que peuvent proposer Relay, CrewAI, Relevance, Induced, Automat

J’ai personnellement un faible pour CrewAI et Relay qui proposent des interfaces plus lisibles que les autres (avec des étapes verticales plutôt que sous forme de flux).

Et comme pour les chatbots, je suis stupéfait par la capacité de la Silicon Valley à faire émerger toute une série de nouvelles startups en un temps record (quelques mois). Même si nous commençons déjà à observer un début de saturation sur ce nouveau créneau, des entrepreneurs de renom s’engouffrent dans la brèche, à l’image du co-fondateur d’Android qui vient de créer une nouvelle startup très ambitieuse (nom de code : « /dev/agents ») qui fait beaucoup parler d’elle : Former Android leaders are building an ‘operating system for AI agents’.

Un système d’exploitation spécifiquement conçu pour héberger ses propres agents, comme il en existe pour héberger son propre site web ou ses propres données ? Pourquoi pas…

Les agents seront-ils vos futurs collègues ou remplaçants ?

Loin de moi l’idée d’agiter le spectre du grand remplacement professionnel… mais c’est quand même un peu de ça dont il est question avec la quatrième révolution industrielle. Si les cols bleus ont déjà connu leur révolution avec le Taylorisme et l’organisation scientifique du travail (manuel), l’heure est maintenant venue pour les cols blancs de faire un bond de productivité grâce l’automation et à l’organisation algorithmique du travail (intellectuel).

Oui je sais, ça fait des années que l’on nous parle de cette fameuse révolution de l’IA qui va déferler sur les employés de bureau. Sauf qu’avec l’avènement des agents intelligents, nous avons une solution très concrète pour y parvenir, et surtout une bien meilleure vision de comment et quand ça va se passer (graduellement, puis soudainement).

Tout ceci nous amène à réfléchir à l’immanquable évolution du rôle des cols blancs. Ainsi, avec la montée en puissance de l’IA générative, les agents intelligents vont petit à petit effectuer une part toujours plus importante des tâches des employés de bureau. De ce fait, ces derniers risquent d’être progressivement cantonnés à un rôle de supervision du travail des agents et occasionnellement de dépannage lorsqu’ils seront bloqués à une étape de leur processus (How To Make Productivity Soar: Four Stages of AI Transformation). Sauf si nous revoyons complètement les méthodes de travail et le rôle des salariés.

L’avènement des agents intelligents est-il un futur enviable ? Je ne sais pas, mais je sais que les entreprises et organisations ne pourront pas éternellement se permettre de payer des employés à remplir des formulaires et à répondre à des emails à la main, surtout dans des conditions de marché aussi difficiles que celles que nous connaissons actuellement (baisse du pouvoir d’achat donc des ventes, crise environnementale / politique / sociale…).

Nous avons tous en tête la triste condition des ouvriers non qualifiés, ceux qui assistent les machines et qui sont condamnés à stagner en bas de l’échelle sociale. Avec la montée en puissance des agents intelligents, allons-nous assister à l’enlisement des employés non qualifiés, ceux qui vont assister les automates et seront également condamnés à stagner en bas de l’échelle sociale ? Sachant qu’avec les progrès réalisés sur les modèles de langage, de raisonnement ou d’action, nous ne parlons pas ici du cliché des fonctionnaires dans les administrations territoriales, mais de tous les cadres et assimilés qui ne peuvent justifier d’un savoir-faire ou d’une expertise que les automates et IA ne savent pas modéliser. Selon cette perspective, si dans un premier temps les employés de bureau vont bénéficier de l’IA (Les modèles génératifs seront surtout utiles aux juniors), ils risquent rapidement d’en être les victimes.

Certes, la promesse de gains de productivité importants est alléchante, mais j’anticipe un avenir très proche (à moyen terme) où les cols blancs ne bénéficiant pas d’une réelle expertise seront au mieux des managers d’agents, au pire des surveillants d’agents (Confessions of an agency founder and chief creative officer on AI’s threat to junior creatives). Un scénario bien triste où ce ne sont pas les agents qui sont au service des salariés, mais l’inverse.

Très clairement un scénario pour lequel le grand public et les salariés lambda ne sont pas prêts, aussi bien fonctionnellement (capacités d’apprentissage face à des outils complexes) que psychologiquement (faculté à se remettre en question et à changer ses habitudes). Il ne nous reste plus qu’à croiser les doigts et à espérer que la théorie de la destruction créatrice de Schumpeter soit encore valide…

Vous allez très certainement penser que je tourne en boucle, mais pour moi le fond du problème est toujours le même : la culture numérique. C’est la clé pour faciliter l’adoption de nouveaux outils et usages, mais surtout pour fluidifier l’anticipation des évolutions du marché et des modèles. La bonne nouvelle est que nous avons enfin un peu plus de visibilité sur le prochain paradigme majeur de l’outil informatique, mais aussi de notre société (Du Web4 à la Société 5.0).